ドキュメント内のテーブルを読む
このコード例は、IronTesseract OCR エンジンを使用して PDF ドキュメントからテキストと表のデータを抽出する方法を示しています。
IronTesseractOCR エンジンのインスタンスが作成されます。OcrInputオブジェクトが初期化され、LoadPdfメソッドを使用して PDF ファイル ("table.pdf") が読み込まれます。- OCR エンジンは、
ReadDocumentAdvancedメソッドを使用してドキュメントを処理し、より詳細なOcrResultオブジェクトを返します。 - ドキュメント内で見つかった最初のテーブルは、
result.Tables.First()を使用してアクセスされ、そのテーブルのセルの情報は、CellInfosを使用して抽出されます。 - セル データのリスト (
cellList) には、テキストの内容やその他の詳細 (セルの位置、サイズなど) を含む表のセルが含まれるようになりました。 - この方法は、PDF から表などの構造化データを抽出し、各表セル内のテキストにプログラムでアクセスして処理するのに便利です。
準備はできましたか?
Nuget ダウンロード 5,585,834 | バージョン: 2026.4 リリース

